Introducción a la programación con Triton: El modelo de ejecución paralela: Pensar en bloques

Cambiar de la programación secuencial en CPU a la programación en GPU requiere un cambio de paradigma: del recorrido elemento a elemento al ejecución basada en bloques. Ya no vemos los datos como una secuencia de escalares, sino como colecciones de "bloques" programados para aprovechar al máximo el ancho de banda del hardware.

1. Limitado por memoria frente a limitado por cálculo

El cuello de botella de un kernel se determina por la relación entre operaciones matemáticas y accesos a memoria. La suma de vectores suele estar limitada por memoria porque realiza solo una suma por cada tres operaciones de memoria (2 cargas, 1 almacenamiento). El hardware pasa más tiempo esperando que llegue la DRAM que calculando.

2. El papel de BLOCK_SIZE

BLOCK_SIZE define la granularidad de la paralelización. Si es demasiado pequeño, subutilizamos las amplias vías de ejecución de la GPU. Un tamaño óptimo asegura suficiente "trabajo en vuelo" para saturar el bus de memoria.

3. Ocultar latencia mediante ocupación

Ocupación es el número de bloques activos en la GPU. Aunque no es el objetivo final, permite al planificador intercambiar un nuevo bloque para realizar cálculos mientras otro espera la recuperación de memoria de alta latencia desde la VRAM.

4. Utilización del hardware

Para maximizar el rendimiento, debemos alinear nuestro BLOCK_SIZE con las reglas de coalescencia de memoria de la arquitectura de la GPU, asegurando que los hilos consecutivos accedan a direcciones de memoria consecutivas.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

For a kernel that adds two vectors ($out = x + y$), what is the most likely bottleneck on modern GPUs?

Arithmetic Throughput

Memory Bandwidth

Shared Memory Latency

QUESTION 2

What is the primary purpose of 'Occupancy' in the GPU execution model?

To ensure every thread runs as fast as possible.

To hide memory latency by keeping work in flight.

To increase the clock speed of the compute units.

To reduce the power consumption of the HBM.

QUESTION 3

Which of the following describes 'Memory-Bound' behavior?

The GPU is waiting for the memory bus to deliver data.

The GPU has exhausted its available VRAM.

The kernel is performing too many complex floating-point operations.

The CPU cannot launch kernels fast enough.

QUESTION 4

What happens if the BLOCK_SIZE is set too small?

The kernel will fail with a memory error.

The GPU fails to utilize its wide SIMD execution lanes.

The memory bandwidth increases significantly.

QUESTION 5

In the logistics warehouse analogy, what represents the 'Blocks'?

The individual items.

The workers.

The organized pallets.

The delivery trucks.